十年•杭研技术秀 | Docker容器的自动化监控实现 | 自由微信

十年•杭研技术秀 | Docker容器的自动化监控实现

Original 2016-12-23 周宇网易云

年

十

2016年对于网易杭州研究院（以下简称“杭研”）而言是重要的 - 成立十周年之际，杭研正式推出了网易云。“十年•杭研技术秀”系列文章，由杭研研发团队倾情奉献，为您展示杭研那些有用、有趣的技术实践经验，涵盖云计算、大前端、信息安全、运维、QA、大数据、人工智能等领域，涉及前沿的分布式、容器、深度学习等技术。正是这些宝贵的实践经验，造就了今天高品质的网易云产品。

本文来自网易杭州研究院运维团队，提出了一种模型化容器监控方案，并描述了该方案的主要实现方法。

近年来容器技术不断成熟并得到应用。Docker作为容器技术的一个代表，目前也在快速发展中，基于Docker的各种应用也正在普及，与此同时Docker对传统的运维体系也带来了冲击。我们在建设运维平台的过程中，也需要去面对和解决容器相关的问题。

Docker的运维是一个体系，而监控系统作为运维体系中重要组成部分，在Docker运维过程中需要重点考虑。本文介绍了一种针对Docker容器的自动化监控实现方法，旨在给Docker运维体系的建立提供相关的解决方案。

1、容器

谈到容器，我们首先会想到LXC（Linux Container）。它是一种内核虚拟化技术，是一种操作系统层次上的资源的虚拟化。在Docker出现之前，就已经有一些公司在使用LXC技术。容器技术的使用，大大提升了资源利用率，降低了成本。

由于直接使用LXC稍显复杂，企业拥抱容器技术具有一定的门槛，而Docker的出现改变了这一局面。Docker对容器底层的复杂技术做了一个封装，大大降低了使用复杂性，从而降低了使用容器技术的门槛。Docker给出了一些基本的规范和接口，用户只要熟悉Docker的接口，就能够轻松玩转容器技术。可以说，Docker大大加快了容器技术的使用普及度，甚至被看做业界容器规范。

2、容器的监控

容器与通常的虚拟机在虚拟化程度上存在着差异，在监控手段上也有不同。一台虚拟机，我们可以当做一个物理机对待，而容器虽然也可以当做虚拟机，但这不符合容器的使用理念。在监控的实现过程中，我们更倾向于把容器看做是宿主机上的一系列进程树。

主流的监控系统实现过程中，一般需要在目标机器上部署agent模块，通过agent模块来做数据采集。而根据容器的使用理念，一般不建议在容器镜像里面捆绑agent。当然这并不意味着数据没法采集，针对容器的虚拟化技术特点，在容器的宿主机上对容器进行数据采集完全是可行，而且能够做到更加高效。

当然，如果把容器当做虚拟机对待，上面部署上agent模块来采集监控数据，也是一种方法，但这不是推荐的做法。我们可以看到业界已经出现的一些Docker监控方案，如Docker Stats、CAdvisor、Scout等，也都是在宿主机上对容器进行监控的。本文提出的监控方案，也将会从宿主机上着手。

3、常见容器监控存在的问题

随着Docker的应用，业界也出现了很多的监控工具，这些工具实际上也都能对Docker容器进行一些监控。利用这些工具搭建一套监控系统来使用，也是基本能够解决一些需求的。但是分析这些监控工具，主要存在两方面的问题。

3.1 与运维体系的结合度

这些工具基本都是独立的，很难与运维体系中其他系统整合打通。在运维自动化不断发展的今天，往往更加注重的是整个体系的集成度。所以需要有一个更好的模型化的思路，便于系统间的数据打通。

3.2 监控的层次

这些工具的监控一般都只停留在单个容器的层面，例如对容器的CPU，磁盘IO等的监控。而大多数应用设计架构都具备一定的节点容错能力，单个节点的问题，往往不能够反映出应用的真实问题。所以监控需要覆盖到更多的层次。

4、模型化容器监控方案

这里我们从整体上提出一种模型化监控方案。这一方案有利于和运维基础的CMDB系统打通，同时能兼顾到更多层次上的监控。

监控系统一般会涉及数据采集，数据存储，数据分析和报警，数据展示等几个部分。本文将讲述一种模型化监控方法，主要提出了以下五种模型：

4.1 监控对象模型

这里我们将使用一种产品树的结构来建模监控对象。把监控对象分为四类，分别是产品，应用，集群，节点。

产品：一般是一个高层次的概念，一个产品一般可以独立输出，对外提供服务。
应用：是产品下的模块组成，多个应用共同形成一个产品。
集群：是应用的存在形式。同一个应用，一般会根据环境，地域等，部署多个集群。
节点：集群内承载服务的资源，包括前文提到的服务器，虚拟机，容器等。

这样，我们的监控数据采集，和视图展示，就可以基于产品树这个层次化的监控对象来做。每种监控对象上都可以有自定义的监控项，也可以继承上层的监控项。同时，分层次的监控对象，在很好地组织监控结构的时候，又可以从多种层次角度来反映出系统的运行状态和问题。

例如我们一个基于Docker的应用需要监控，应用名称为myDocker。我们可以建立如下监控模型：

产品：my_Docker_product
应用：my_Docker_app
集群：my_Docker_cluster
节点：my_Docker_container

4.2 采集器模型

主要用于采集数据的模块，同时满足数据输出规范，为了便于解析，同时具备较好的数据结构展示，我们可以采用Json格式作为数据规范。在数据的语义上需要匹配对应的数据模型。例如针对节点模型的采集器，可以是一个脚本，通过捕获脚本执行输出来获取相应数据模型的数据。而上层节点的采集器，则一般是基于节点数据模型的一些计算，这些计算一般包括sum，avg，max，min等，一般反映的是整个集群下节点的一些聚合数据。

例如，一个简单的采集器模型如下：

4.3 数据模型

用来定义监控数据格式，模型包括数据项和指标项。一个数据项一般包含一个或者多个指标项。数据模型中的数据来自于对应的采集器。

例如，针对CPU可以监控如下模型：

数据项：cpu

指标项：usr,sys,idle

4.4 报警规则模型

在数据模型的基础上，针对每个数据指标项目，可以设置报警模型。例如，空闲CPU少于50%的时候触发报警，则可以建立如下规则：cpu.idle < 50

4.5 视图模型

这个模型将数据模型和视图关联起来了。包含数据展示方式定义，例如可以是趋势图，表格等。可以结合数据模型中的数据项与指标项，描述具体数据指标的视图展示方式。不同监控对象上的视图，一般都能从不同层次体现出监控。

用XML格式描述视图模型如下：

<?xml version="1.0" encoding="UTF-8"?>